2.7 连接有限总体和超总体的因果推断

#CRE #SuperPopulation #SRE

我们一直在关注随机化实验中的有限总体视角, 我们把所有潜在输出看作固定的数目. 即使潜在结果是随机变量, 我们也可以在有限视角下, 对它们取条件概率. 这样的好处是, 它关注实验设计, 对结果的生成过程有最小的额外假设. 但是, 它也被批评只有内部有效性, 但没有外部有效性.

内部有效性外部有效性

内部有效性: 统计分析对手上的样本有效.
外部有效性: 统计分析对一个更广阔的群体有效.

目前所有的统计特性都是基于条件概率得到的, 那我们如何推广到一个更大的群体呢?
对于一些统计学家, 这只是一个技术问题. 我们可以改变统计框架, 假设这些单位是从一个更大的超总体抽样得到的. 这是一个方便的框架, 尽管它没有真正解决上面的问题.

1 CRE

假设 ${Z_{i}, Y_{i} (1), Y_{i} (0), X_{i}}_{i = 1}^{n} \overset{i . i . d}{\sim} {Z, Y (1), Y (0), X}$ 来自一个超总体. 则我们可以去掉下标 $i$ . 稍微滥用一下记号, 定义总体平均因果效应为 $τ = E [Y (1) - Y (0)] = E [Y (1)] - E [Y (0)] .$ 在超总体的框架下, 我们可以得到 CRE

超总体的 CRE

我们有 $Z ⊥ ⊥ {Y (1), Y (0), X} .$

此时^[1] $\begin{aligned} τ & = E [Y (1) | Z = 1] - E [Y (0) | Z = 0] \\ (1.1) & = E (Y | Z = 1) - E (Y | Z = 0) . \end{aligned}$
这里 $τ$ 可以直接由观测结果表示, 因此它是非参数可识别的^[2].

(1.1) 立即推出, 我们有一个矩估计量 $\hat{τ}$ . 在 $\vec{Z}$ 条件下, 这就是一个标准的双样本检测问题. 我们有 $\begin{aligned} E (\hat{τ} | \vec{Z}) = τ, \\ Var (\hat{τ} | \vec{Z}) = \frac{Var {Y (1)}}{n_{1}} + \frac{Var {Y (0)}}{n_{0}} . \end{aligned}$
在 IID 采样下, 样本方差是无偏的, 所以 Neyman 的方差估计量对于 $Var (\hat{τ} | \vec{Z})$ 是无偏的. 因此就没有保守性的问题了.

我们还可以讨论协变量调整. 基于 OLS: $Y (1) = γ_{1} + β_{1}^{T} X + ε (1), Y (0) = γ_{0} + β_{0}^{T} X + ε (0) .$ 我们有 $τ = E [Y (1) - Y (0)] = γ_{1} - γ_{0} + (β_{1} - β_{0})^{T} E (X),$ 因为 $ε (1), ε (0)$ 均值为 $0$ . 如果采样的版本记为 ${\hat{γ}}_{1}, {\hat{β}}_{1}; {\hat{γ}}_{0}, {\hat{β}}_{0}$ , 则 $τ$ 的协变量调整为 ${\hat{τ}}_{adj} = {\hat{γ}}_{1} - {\hat{γ}}_{0} + ({\hat{β}}_{1} - {\hat{β}}_{0})^{T} \overset{―}{X} .$ 如果 $\overset{―}{X} = 0$ , 这退化为 Lin 的估计量 ( (2.1)) ${\hat{τ}}_{L} = {\hat{γ}}_{1} - {\hat{γ}}_{0}$ .
不过 EHW 方差估计量没法对 ${\hat{τ}}_{L}$ 适用, 因为在超总体采样的时候会有额外的不确定性. 我们可以进行如下修正: $\frac{({\hat{β}}_{1} - {\hat{β}}_{0})^{T} S_{X}^{2} ({\hat{β}}_{1} - {\hat{β}}_{0})}{n}$ .

2 扩展到 SRE

依然假设 ${Z_{i}, Y_{i} (1), Y_{i} (0), X_{i}}_{i = 1}^{n} \overset{i . i . d}{\sim} {Z, Y (1), Y (0), X}$ . 假设协变量离散 $X_{i} \in {1, \dots, K}$ .

超总体下的 SRE

我们有 $Z ⊥ ⊥ {Y (1), Y (0)} | X .$

此时 $\begin{aligned} τ_{[k]} & = E [Y (1) - Y (0) | X = k] \\ = E (Y | Z = 1, X = k) - E (Y | Z = 0, X = k), \end{aligned}$ 从而 $\begin{aligned} τ & = E [Y (1) - Y (0)] = \sum_{k = 1}^{K} P (X = k) E [Y (1) - Y (0) | X = k] \\ = \sum_{k = 1}^{K} P (X = k) τ_{[k]} . \end{aligned}$

这里的第二个等式只是因为给定 $Z = 1$ 后得到的 $Y (1)$ 就是 $Y$ . ↩︎
它的计算仅靠观测结果就可以计算, 且不依赖具体的分布、参数. ↩︎